强化学习(RL)研究代理如何在未知环境中以奖励反馈来表现。环境通常被建模为马尔可夫决策过程(MDP)。在标准设置中,假定MDP是静态的,即,随着时间的推移,状态过渡内核和瞬时奖励函数仍保持固定。在这个假设下,具有强大理论保证的众多综合和统计上有效的算法已得到发展(Jaksch等人。,2010年; Lattimore和Hutter,2012年; Dann and Brunskill,2015年; Azar等。,2017年; Jin等。,2018,2020b)。但是,即使腐败仅限于一小部分回合,这些保证也可能会完全破裂。为了模拟MDP中的对抗性损坏,已经对一个称为对抗MDP的框架进行了敏锐的研究。在对抗性MDP中,允许对手在每回合中任意选择奖励功能,同时保持过渡内核固定(Neu等人。,2010b,a; Dick等。,2014年; Rosenberg and Mansour,2019年,2021年; Jin等。,2020a; Neu和Olkhovskaya,2020年; Lee等。,2020年; Chen and Luo,2021年;他等人。,2021; Luo等。,2021)。在此框架下,可以建立强大的次线性遗憾界限,这几乎与固定的奖励案例相匹配。值得注意的是,Jin和Luo(2020); Jin等。(2021b)开发了在对抗奖励案例中实现近距离限制的算法,同时在静态案例中保留了依赖实例依赖的界限,这表明几乎可以在没有价格的情况下处理对抗奖励。
主要关键词